论文 SKA 区 域 中 心 数据 处 理 系统 和 科学 应 用 


低频 射电 脉冲 星 搜 索 的 性 能 优化 方法 


PELU, KRE, KIPAS, RHS, PAE, 
1. 上 海 交 通 大 学 网 络 信息 中 心 , 上 海 200240; 

2. 中 国 科学 院 上 海天 文 台 SKA 区 域 中 心 联合 实验 室 , 射电 天 文 重点 实验 室 , 上 海 200030; 
3. 鹏 城 实验 室 SKA 区 域 中 心 联合 实验 室 , 深圳 ,518066; 

4. 上 海 引力 波 探测 前 沿 科 学 中 心 , 上 海 200240; 
5 

* 


. 中 国 科学 院 大 学 天 文 与 空间 科学 学 院 , 北京 100049 
KAA, E-mail: zzl@shao.ac.cn 


收 稿 日 期 : 2022-06-28; 接受 日 期 : 2022-07-xx; 
HE SKA 专项 (编号 : 2020SKA0120200) 、 国 家 重点 研发 计划 (编号 : 2018YFA0404603)、 国 家 自然 科学 基金 资助 项 目 (批准 号 : 
12041301,11873079) 和 中 国 科学 院 青年 创新 促进 会 项 目 (编号 :2021258) 资助 项 目 


摘要 随 着 平方 公里 阵列 射电 望远镜 (SKA) 等 大 科学 装置 的 建设 和 运行 ,以 及 大 数据 和 高 性 能 计算 创新 
平台 的 提出 , 天 文学 与 高 性 能 计算 之 间 的 联系 日 趋 紧密 . 天 文学 计算 , 特别 是 作为 SKA 的 主要 科学 方向 之 
一 的 脉冲 星 搜索 , 具有 数据 量 大 、 计 算 量 多 的 特点 ， 本文 介绍 了 一 种 基于 OpenMP 多 线程 和 多 进程 技术 
= 来 加 速 脉冲 星 搜索 管线 的 方案 , 提出 了 一 种 解决 负载 不 平衡 问题 的 方法 , 并 成 功 的 将 优化 管线 安装 于 中 国 
Ee SKA 区 域 中 心 原型 机 的 x86 和 ARM 计算 节点 . 通过 默 奇 森 大 视 场 阵列 望远镜 (MWA) 的 脉冲 星 观测 数 
a m 据 搜寻 测试 , 与 原始 单线 程 方法 相 比 , 管线 分 别 获 得 10.4-12.2 和 24.5-27.6 倍 的 加 速 比 . 其 中 ARM 平台 

W x86 平台 的 计算 快 1.1-1.3 È, 显示 出 其 在 SKA 数据 处 理 方面 的 巨大 潜力 . 在 中 国 SKA 区 域 中 心 原型 
机 上 部 署 的 脉冲 星 优 化 搜索 管线 , 近期 将 重点 应 用 于 MWA 南天 快速 两 米 巡 天 (SMART) 项 目的 低频 脉 
一 冲 星 搜寻 , 以 满足 包括 引力 波 探测 计时 阵 在 内 的 多 种 科学 需要 . 


关键 词 ”平方 公里 阵列 ， 脉冲 星 , 脉冲 星 搜索 , 高 性 能 计算 , 并 行 优化 
PACS: 47.27.-i,47.27.Eq,47.27.Nz,47.40.Ki,47.85.Gj 
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1 引言 能 够 稳定 地 接收 到 周期 性 的 脉冲 辐射 信号 


脉冲 星 在 天 文学 和 物理 学 上 的 巨大 应 用 价值 是 

脉冲 星 是 具有 强 磁场 的 快速 旋转 中 子 星 , 其 典 ”建立 在 大 样本 基础 上 的 , 而 脉冲 星 的 搜寻 工作 已 经 

型 半径 约 为 10-12 FX, 质量 约 为 1.4 倍 太阳 质量 。 在 全 球 范 围 内 展开 . 例如 美国 Arecibo 望远镜 的 银 
Mo”. EF 1967 年 在 低频 射电 观测 中 首次 被 发 现 L 波段 馈 电 阵列 脉冲 星 巡 天 (PALFA) ©) 和 澳 
Pl, 在 时 域 天 文学 、 致 密 天 体 结构 、 星 际 介质 模型 ， ”大 利 亚 Parkes 望远镜 的 高 时 间 分 辨 率 宇宙 脉冲 星 
以 及 引力 波 探测 等 领域 有 着 重要 价值 . 观测 研究 显 ”巡天 (HTRU) 65. 我 国 自主 研制 的 500 米 口 径 球 
示 , 脉冲 星 的 辐射 源 于 磁极 , 当 自转 轴 与 磁 轴 存在 面 射 电 望远镜 “天 眼 ”FAST ,至今 已 发 现 350 
夹 角 时 ,就 会 产生 灯塔 效应 ,使 得 地 球 上 的 观测 者 ”多 颗 新 脉冲 星 〈 如 [9-12]) ， 以 及 FAST 多 科学 目 


标 同时 扫描 巡天 (CRAFTS) 中 的 200 多 颗 脉 冲 星 
候选 体 OS 号 D. Eat, JLA MHz 以 下 的 低频 脉冲 
星 探 量 也 在 进行 中 .例如 美国 的 GBNCC 巡天 项 
目 05 利用 Green Bank 射电 望远镜 在 350MHz 对 
南 纬 40° 以 北 天 区 进行 全 面 搜寻 , 已 发 现 了 195 Bi 


PEX, IKR K, 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


测 变 得 困难 . 随 着 SKA-low (SKA 的 低频 阵列 27) 
先导 项 目的 运行 , 脉冲 星 的 低频 搜索 技术 在 不 断 进 
步 . SKA-low 将 成 为 最 先进 的 脉冲 星 低频 探测 望 远 
镜 之 一 . 

在 SKA 建成 之 前 , 许多 SKA 的 探 路 者 设备 


脉冲 星 2，Arecibo 在 327MHz 的 巡天 , A 2010 年 
E, 已 发 现 了 96 颗 脉冲 星 5521， 荷 兰 的 LOFAR 
低频 阵列 射电 望远镜 在 更 低 的 135MHz 频率 上 
发 现 了 73 颗 脉冲 星 吕 20， 迄今 为 止 , 已 发 现 超过 
3300 颗 射电 脉冲 星 (ATNF HR’). 它们 大 部 分 
分 布 在 银 盘 附近 , 只 有 一 小 部 分 分 布 在 高 银 纬 地 区 ， 
这 与 脉冲 星 是 由 超新星 爆炸 产生 的 理论 是 一 致 的 . 

正在 建设 的 平方 公里 阵列 (Square Kilometre 
Array, SKA) 射电 望远镜 的 第 一 阶段 (SKAL 整 
个 规模 的 10%) 预期 能 够 发 现 18000 多 颗 脉 冲 星 ， 
超过 目前 已 知 数目 的 5 EP. eS ho E 
需要 更 长 的 积分 时 间 , 而 计算 能 力 的 需求 是 随 着 观 
测 时间 的 立方 增长 的 , 因此 , 提高 脉冲 星 搜寻 速度 
是 一 个 吸 待 解决 的 问题 ， 如 今 ,有 多 项 工作 利用 现 
代 多 核 处 理 器 来 优化 脉冲 星 的 搜索 . Yu 等 人 加] 测 
试 了 开启 和 关闭 超 线程 、 不 同 线程 数 对 脉冲 星 探 测 
和 搜索 工具 PRESTO 4! (Scott Ransom FE) 程 
序 性 能 的 影响 , 但 其 代码 还 可 以 进一步 优化 .Di- 
moudi 等 人 [35] 在 GPU 上 使 用 傅立叶 空间 加 速 搜 
索 (FDAS) 算法 来 优化 脉冲 星 搜索 , 但 是 这 个 GPU 
算法 尚未 集成 到 PRESTO 中 . Wang 等 人 P9 使 用 
FPGA 芯片 来 加 速 脉 冲 星 搜 索 , 而 FPGA 芯片 没 
有 被 天 文学 家 广泛 应 用 于 科学 数据 处 理 , 也 不 能 三 
PRESTO 很 好 的 舱 合 ， 相 比 之 下 ,x86 或 ARM W 
构 的 多 核 CPU, 支持 95% 以 上 的 工作 负载 , 是 我 们 
加 速 脉冲 星 搜 索 的 理想 平台 . 


由 于 脉冲 星 的 频谱 陡峭 , 理论 上 更 容易 在 较 低 
频率 探测 到 脉冲 星 , 因此 低频 射电 观测 对 于 寻找 新 
的 脉冲 星 至 关 重 要 3， 此 外 , 低频 望远镜 具有 更 
大 的 探测 视 场 (FoV) . 但 由 于 低频 环境 噪声 的 干 
扰 和 星际 介质 的 散射 效应 , 使 得 低 射 频 脉冲 星 的 探 


已 经 投入 使 用 . 位 于 西 澳大利亚 的 默 奇 森 大 视 场 阵 
列 望远镜 (MWA) P3 是 SKA-Low 的 先导 项 目 ， 
其 视 场 包括 具有 最 密集 脉冲 星 分 布 的 银河 系 中 心 区 
域 . MWA 的 电压 捕获 系统 (VCS) °°) 覆盖 MWA 
70-300 MHz 的 频率 范围 , 在 30.72 MHz 的 总 带宽 
上 细 分 了 3072 个 频率 通道 , 因此 具备 0.1 kHz 的 频 
率 分 辩 率 . 在 0.1 ms 的 时 间 采 样 下 , 每 小 时 的 观测 
将 产生 28 TB 的 数据 . 虽然 数据 量 巨大 给 后 随 的 计 
算 处 理 带 来 不 小 的 挑战 ,MWA 依然 预期 探测 到 230 
颗 新 的 脉冲 星 I. 而 未 来 的 SKA1-Low 则 预期 可 
发 现 大 约 11,000 颗 脉 串 星 P. 

在 SKA 时 代 , 单 碟 射 电 望 远 镜 灵敏 度 和 巡天 
效率 难以 提高 的 缺点 将 得 到 彻底 克服 . SKA AE 
获得 前 所 未 有 的 高 灵敏 度 、 大 视 场 和 高 巡天 速度 ， 
同时 产生 海量 观测 数据 "1, 当 SKA1 完成 后 , 数 
据 生 成 速率 最 高 可 达 每 秒 TB Hgy B>. SKAL 
生成 的 海量 数据 将 需要 每 秒 至 少 300Pflops 浮 点 运 
算 的 运算 能 力 BY, 这 几乎 相当 于 当前 世界 上 最 快 的 
超级 计算 机 的 能 力 (例如 Fugaku 的 最 大 性 能 为 442 
PFlops #4) . 考虑 到 传输 和 计算 效率 , 实际 对 数据 
处 理 的 需求 将 大 大 超过 这 个 理论 估计 . 

顺利 完成 海量 数据 的 处 理 和 存储 是 SKA 正常 
运行 的 前 提 , 因此 SKA 主要 成 员 国 正 计 划 建 立 各 
自 的 区 域 中 心 (SRC) ， 来 执行 科学 数据 深度 分 析 
和 数据 产品 长 期 存储 的 任务 , 并 且 支 撑 全 球 科 学 用 
户 的 工作 9. 分 布 式 SRC 将 形成 一 个 全 球 的 协作 
和 协调 网 络 , 负责 SKA 的 科学 数据 产品 O. ER 
SRC 网 络 的 设计 、 开 发 、 运 营 和 维护 符合 SKA 天 

台 需 求 和 国家 /地 区 的 战略 发 展 . 

上 海天 文 台 正 牵头 推进 中 国 SKA 区 域 中 心 原 

型 系统 建设 (CSRC-P) ， 并 且 已 建成 世界 第 一 台 


1) FAST 脉冲 星 目 录 可 以 在 以 下 链接 中 获得 : (@https://crafts.bao.ac.cn/pulsar/; (b)https://fast.bao.ac.cn/cms/article/65/; 


(c)https://zmtt.bao.ac.cn/GPPS/ 
2) http://astro.phys.wvu.edu/GBNCC/ 


3) https: //www.skatelescope.org/news/china-ratifies-skao-convention/ 
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SRC JAH PAS) I EA BEM), SKA 区 域 
数据 中 心 建成 后 , 将 以 MWA 为 基础 ， 同 时 开拓 
和 ASKAP、MeerKA0T 和 LOFAR 的 合作 , 开展 
SKA 先导 项 目的 科学 预 研究 和 技术 发 展 , 其 中 包括 
低频 射电 连续 谱 巡 天 观测 项 目 9, 以 及 本 文 所 开展 
的 低频 射电 脉冲 星 搜索 研究 . 在 全 面 建 设 SRC 之 
前 , 原型 机 的 研制 和 测试 至 关 重 要 . CSRC-P 承担 
了 SKA 先导 和 探 路 望远镜 的 数据 处 理 技术 验证 、 
数据 挑战 测试 、 数 据 处 理 流程 开发 和 数据 分 析 的 任 
务 . CSRC-P 采用 混合 异 构 计算 架构 的 设计 , 同时 
使 用 x86 和 ARM"? 处 理 器 集群 , 它 是 第 一 个 使 
用 ARM 架构 的 SKA 数据 人 处理 系统 . 正如 2019 年 
的 SKA 工程 会 议 ? 上 所 展示 的 ,ARM 计算 节点 的 
基准 测试 显示 了 出 色 的 整体 性 能 . CSRC-P 配备 了 
多 核 处 理 器 和 出 色 的 存储 和 网 络 系统 , 为 改进 脉冲 
星 搜索 管线 提供 了 理想 的 测试 平台 . 

本 文 将 介绍 在 现代 多 核 处 理 器 平台 上 针对 脉冲 
星 搜 索 管 线 执行 的 优化 方法 , 尤其 是 针对 CSRC-P 
的 设计 , 以 及 针对 MWA-VCS 的 四 个 非 相 干 敌 加 
数据 进行 搜寻 测试 的 结果 . 文章 结构 如 下 : 第 2 章 为 
我 们 所 采用 的 脉冲 星 搜寻 管线 , 第 3 章 介 绍 我 们 对 
该 管线 中 热点 步 又 的 优化 方法 , 第 4 和 第 5 章 分 别 为 
优化 管线 的 性 能 评估 和 总 结 ， 值得 一 提 的 是 , 该 管 
线 近 期 将 重点 应 用 于 MWA 的 南天 快速 两 米 巡 天 
(SMART!) 项 目的 低频 脉冲 星 搜 寻 当 中 . 


2 脉冲 星 搜索 流程 


Scott Ransom FH PRESTO’! 是 使 用 最 
广泛 的 脉冲 星 搜 索 管线 .PRESTO 的 最 初 设计 目的 
是 从 对 球状 星团 的 长 时 间 观 测 中 有 效 地 搜索 毫秒 肪 
冲 双 星 . 目前 , 已 利用 PRESTO 搜索 到 了 600 多 
颗 脉 冲 星 , 其 中 包括 230 多 颗 毫 秒 脉 冲 星 和 毫秒 脉 
冲 双星 44]. PRESTO 代码 主要 由 ANSI C 语言 编 
写 , 还 包含 许多 使 用 Python 语言 编写 的 例 程 . 使 
用 PRESTO 搜索 脉冲 星 的 管线 如 图 1 所 示 , 共有 6 
步 : 1) 消除 射频 干扰 (Remove Narrowband Radio 
Frequency Interference) ; 2) 消 色散 (De-dispersion) ; 
3) 健 里 叶 变 换 及 消除 红 品 声 (FFT & Remove Red- 


4) https://indico.skatelescope.org/event/551/ 


韦 建 文 , 张 晨 飞 , 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


noise); 4) 加 速 搜 索 (Accelerate Search); 5) 候选 
(kit (Candidate Folding); 6) 单 脉冲 搜索 (Sin- 
gle Pulse Search)， 而 最 终 对 于 周期 性 和 单 脉 冲 的 
候选 体 筛 选 , 暂时 采用 人 工 的 方法 .后 续 将 根据 不 
同 的 观测 数据 和 需要 在 该 步 又 安插 人 工 智能 筋 选 程 
Fe. 在 接 下 来 的 章节 中 , 我 们 将 介绍 筛选 前 6 个 步 
又 的 方法 , 以 及 为 这 些 步 又 设计 的 并 行 优 化 方案 . 


OpenMP- 
MWA-YCS Data [Lg based parallel 
Multiprocessing- 


Remove EE based parallel 
NairowbandRFI 


DR Load Imbalance 
nd Solution 


FFT & Remove 
Red Noise 
Accelerate Search 

‘Candidate Folding’ Sift Artificially 


图 1 脉冲 星 搜 索 管线 和 分 步 优化 方法 


Figure 1 The flowchart of the pulsar search pipeline and the 


Remove 
Narrowband RFI” 


optimization of each step 


2.1 ”消除 射频 干扰 


射频 干扰 主要 来 源 于 人 造 射电 源 , 很 容易 被 错 
误 识别 为 脉冲 星 候 选 体 , 而 真正 的 脉冲 星 信号 又 会 
因为 受到 干扰 而 被 忽略 . 射频 干扰 对 脉冲 星 的 搜索 
与 观测 会 产生 严重 的 影响 , 从 而 大 幅 增 加 后 续 流 程 
的 工作 量 . 

PRESTO 提供 了 rfifind.py 的 程序 , 可 用 于 识 
别 和 去 除 很 强 的 罕 带 射频 干扰 , 以 及 持续 时 间 较 短 
的 宽带 的 射频 干扰 . 其 算法 将 时 域 分 为 几 秒 的 区 间 ， 
以 满足 大 部 分 观测 数据 去 除 干扰 的 需要 (本 文中 测 
试 设置 为 12s) . rfifind 用 这 个 区 间 去 扫描 整个 数 
据 , 找 出 其 中 的 射频 干扰 并 标记 , 生成 标记 .mask X 
件 . 

男 一 个 需要 搜索 的 是 周期 性 干扰 信号. 由 于 射 
电信 号 必然 会 受到 星际 介质 的 影响 所 以 色散 量 
(DM) 为 0 的 信号 是 不 存在 的 , 因此 这 类 信和 号 可 以 
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视 为 射频 干扰 ，PRESTO 对 数据 进行 一 次 DM-0 
搜索 , 找 出 色散 量 为 0 的 信号 , 并 将 搜索 信息 记录 
到 .bird 文件 中 , 从 而 消除 此 类 干扰 对 后 续 搜索 的 影 
响 


2.2 Wi 


由 于 不 同 频率 的 电磁 波 在 星际 介质 中 的 传播 速 
度 不 同 , 射电 望远镜 接收 到 的 不 同 频率 的 信号 会 有 
时 间 差 , 从 而 导致 脉冲 展 宽 . 频带 越 宽 的 射电 望 远 
镜 在 观测 脉冲 星 时 灵敏 度 越 高 , 但 星际 介质 引起 的 
色散 影响 也 越 大 . 我 们 需要 对 观测 到 的 数据 进行 消 
色散 处 理 . 

我 们 利用 基于 PRESTO 的 prepsubband 程序 
进行 消 色 散 处 理 . prepsubband 程序 执行 消 色 散 的 
过 程 如 下 : 根据 特定 的 色散 量 DM, 将 不 同 通道 组 
的 信号 在 时 间 上 进行 移动 , 最 终生 成 一 系列 不 同色 
散 量 的 时 间 序 列 . 消 色 散 操作 会 去 除 上 一 步 标 记 的 
射频 干扰 . 对 于 信号 较 强 的 脉冲 星 , 消 色 散 之 后 便 
会 显现 出 脉冲 信号 . 若 数 据 中 存在 色散 量 在 搜索 范 
围 内 的 脉冲 星 信 号 , 其 周期 可 以 在 后 续 搜 索 过 程 中 
被 确定 . 


2.3 REMEMBRE 


得 到 不 同色 散 量 的 时 域 数 据 后 , 我 们 对 序列 进 
行 离散 侍 里 叶 变 换 , 再 从 频 域 中 展开 搜索 ， 本 文 使 
用 在 计算 机 上 能 够 高 效 实现 离散 全 里 叶 变 换 的 算 
法 : 快速 储 里 叶 变换 (FFT) , 从 而 极 大 提高 脉冲 星 

由 于 环境 中 无 处 不 在 的 粒子 布朗 运动 , 采集 到 
的 信息 会 混 有 红 噪 声 导致 频 域 信 号 低频 端 升 高 . 
因此 , 对 于 传 里 叶 变 换 后 的 .从 文件 , 我 们 需要 执行 
PRESTO 中 的 红 噪 声 消除 程序 以 白化 信号 , 生成 新 
的 去 除 红 品 声 的 .ft 文件. 


2.4 MERK 


在 频 域 中 , 一 颗 真 实 脉冲 星 的 信号 并 非 只 在 一 
个 频率 处 出 现 , 而 是 表现 为 一 个 基 频 和 一 系列 谐 波 . 
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为 了 充分 利用 谐 波 , 我 们 使 用 “ 谐 波 徐 加 技术 ”来 
加 强 脉冲 星 的 频 域 信号 , 并 获取 脉冲 星 的 候选 体 . 

PRESTO 软件 的 accelsearch 程序 提供 了 脉 
冲 星 的 加 速 搜 索 算法 , 可 同时 用 于 对 普通 脉冲 星 和 
双星 系统 中 的 脉冲 星 进 行 搜索 . 其 中 ,-numharm 参 
数 可 以 设 定 最 高 谐 波 辣 加 次 数 . 理论 上 , 该 参数 设 
置 得 越 高 对 搜索 越 有 利 , 但 同时 运算 量 也 会 成 倍增 
加 ， 在 本 文中 ,该 参数 设置 为 16. accelsearch 中 
的 -zmax 参数 , 指 的 是 在 搜索 中 使 用 的 参数 空间 中 ， 
由 双星 系统 的 轨道 运动 引起 的 频 域 上 的 最 大 漂移 
Æ. zmax 的 设 定 值 越 大 , 运算 耗 时 越 长 ， 在 本 文 
中 ,zmax 的 值 设 为 200. 


2.5  WRLE Ae 


对 于 程序 筛选 出 来 的 候选 体 , 我 们 在 搜索 到 的 
色散 量 DM 和 周期 P 上 将 它们 的 时 间 序 列 进行 折 
#, 并 分 析 其 折 半 后 的 轮廓 . 

基于 PRESTO 软件 的 prepfold 有 两 种 方法 来 
折 和 县 脉冲 轮廓 : 一 种 是 在 输入 的 DM 和 了 值 的 附近 
进行 小 范围 搜索 后 折 苹 , 目的 是 找到 更 精确 的 DM 
和 P 值 . 男 一 种 方式 是 直接 采用 输入 的 DM 和 P 
值 进行 折 奢 .由 于 本 文中 对 流程 的 优化 目的 是 为 大 
量 的 巡天 搜寻 做 准备 , 我 们 对 每 个 候选 体 采用 的 是 
HT BN TK. 


2.6 ” 单 脉 冲 搜索 


部 分 脉冲 星 的 信号 不 会 表现 出 明显 的 周期 性 ， 
例如 存在 零 脉 冲 、 巨 脉冲 等 现象 的 脉冲 星 ， 具有 
零 脉 冲 的 脉冲 星 会 在 一 段 时 间 内 没有 脉冲 信号 ; 有 
巨 脉冲 的 脉冲 星 , 其 巨 脉冲 可 以 达到 平均 脉冲 强度 
的 100-1000 倍 . 这 两 类 脉冲 星 都 很 难 在 频 域 上 被 
搜索 到 ， 单 脉冲 搜索 通常 采用 时 域 上 的 搜索 算法 . 
PRESTO 软件 提供 了 单 脉冲 搜索 程序 , 可 以 得 到 不 
同色 散 量 时 间 序 列 中 较 明 显 的 单 脉冲 信和 号. 
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3 脉冲 星 搜索 并 行 优化 


3.1 脉冲 星 搜索 管线 热点 分 析 


脉冲 星 搜索 各 步骤 的 时 间 占 比如 图 2 所 示 . 其 
中 , 消除 射频 干扰 (Remove Narrowband RFI)、 消 
色散 (De-dispersion) 、 加 速 搜索 (Accelsearch) 、 
LEAD Ta (Candidate Folding) 以 及 单 脉冲 搜索 
(Single Pulse Search) 是 程序 热点 , 运行 耗 时 高 , 优 
化 潜力 大 . 快速 传 里 叶 变 换 (FFT) 和 消除 红 噪 声 
(Remove Rednoise) 耗 时 少 , 优化 潜力 小 , 不 需要 进 
行 优化 . 


根据 PRESTO 的 代码 热点 和 程序 编写 语言 分 
析 , OpenMP 多 线程 和 Python 多 进程 方法 是 合适 
的 优化 方法 , 具体 理由 如 下 : 第 一 , 大 部 分 代码 是 单 
核 运行 , 通过 利用 现代 多 核 计算 节点 , 预期 可 以 获 
得 数 倍 的 加 速效 果 . 第 二 , 脉冲 星 多 频道 数据 间 没 
有 依赖 , 因此 可 以 更 好 地 并 行 化 , 进一步 缩短 运行 
时 间 . 第 三 , 相对 于 多 节点 并 行 优化 , 多 线程 或 多 进 
程 的 并 行 优化 更 易 完 成 , 且 正 确 性 更 容易 验证 ， 因 
此 可 以 作为 未 来 优化 的 良好 起 点 . 


本 文 使 用 的 并 行 技术 如 下 所 示 , 分 别 为 Multi- 
processing, OpenMP 以 及 负载 平衡 方法 ， 这 些 优 
化 方法 应 用 到 的 步骤 如 图 1 所 示 . 


e Multiprocessing: 一 种 支持 多 种 计算 机 语言 的 
进程 级 并 行 技术 . 本 文 使 用 Python 的 multipro- 
cessing FE! 实现 . 该 库 使 用 子 进程 而 非 线程 , 从 
而 能 充分 利用 集群 上 的 多 核 性 能 . 


e OpenMP ÉS: 多 核 处 理 器 并 行 编程 的 一 种 共 
享 内 存 标准 . 通过 共享 内 存 , 不 同 的 核 可 以 从 共享 
内 存 中 获取 该 核 需要 的 数据 用 于 处 理 . 


© 负载 平衡 后 : 由 于 所 有 的 核 不 可 能 同时 完成 
工作 , 部 分 核 停止 运行 时 , 仍 可 能 有 男 一 部 分 核 在 
运行 , 而 空 闪 的 核心 会 造成 性 能 浪费 . 因此 我 们 需 
要 均衡 所 有 核心 的 负载 , 尽 可 能 避免 有 核心 闲置 . 
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Accelsearch 


Remove rednoise &FFT 


Single pulse Search 
Candidate Folding 


De-dispersion 


Remove narrowband RFI 


图 2 第 4 章 样 例 1 中 脉冲 星 搜索 管线 热点 分 析 


Figure 2 The hotspots of Pulsar Search Pipeline with case 1 


in section 4 


3.2 ”使 用 OpenMP 优化 窄带 射频 干扰 


我 们 使 用 OpenMP 来 优化 窄带 射频 干扰 消除 
的 过 程 . 窄带 射频 干扰 消除 可 分 为 两 步 : 搜索 射频 
干扰 和 写 .mask 文件 . 原 程序 会 调用 rfifind, 将 时 间 
序列 分 割 为 多 个 固定 秒 数 的 区 间 , 随后 在 每 个 区 间 
中 搜索 射频 干扰 (算法 1) .因为 这 些 区 间 中 没有 
数据 依赖 , 我 们 将 OpenMP 的 pragma 制导 语句 添 
加 在 rfifind 的 C 语言 源码 中 , 来 并 行 化 搜索 射频 干 
H (算法 2) . 而 将 搜索 结果 写 人 mask 文件 的 过 程 
耗 时 较 少 , 无 需 进一步 优化 . 


算法 1 原始 的 窗 带 射频 干扰 消除 
Require: M- 频 道 数量 
Ensure: 消除 窄带 射频 干扰 后 的 频道 
1: for i=0 to M-1 do 
2: 调用 Search_rfifind 来 搜索 第 i 个 channel 的 射频 
干扰 , 并 将 结果 写 入 datali] 中 
3: ”将 data 写 人 文件 中 


4: end for 
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表 1 低频 MWA 非 相 干 琶 加 数据 的 消 色 散 方案 
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Table 1 The de-dispersion scheme for MWA incoherent summed data at low frequency 


Low-DM High-DM dDM Nsteps Downsamp nsub Effective time resolution 
(cempe) _(em™pe) (cmpo) (ms) 
1.0 22.9 0.02 1093 1 4 0.1 
22.9 45.7 0.05 457 2 8 0.2 
45.7 91.5 0.11 415 4 16 0.4 
91.5 183.0 0.21 435 8 32 0.8 
183.0 250.0 0.43 115 16 64 1.6 


算法 2 HAGE Sa TT 
Require: M- 频 道 数 量 ,N- 核 心 数量 
Ensure: 消除 窄带 射频 干扰 后 的 频道 
1: for i=0 to M/N — 1 do 
2: for j=0 to N- 1 do 
3: OpenMP 线程 j 调用 Search_rfifind 来 搜索 第 
iN + j 个 channel 的 射频 干扰 , 并 将 结果 写 入 
data{j] 中 


4 end for 

5 for j=0 to N-1 do 

6: OpenMP 线程 j 将 datalj] 写 人 文件 中 
7 

8 


end for 


: end for 


3.3 ”使 用 Python 执行 多 进程 并 行 


在 去 除 射频 干扰 后 每 一 步 热点 步 又 都 具有 相似 
的 计算 模式 : 使 用 Python 脚本 输入 多 个 独立 的 文 
件 、 输 出 同样 写 人 到 独立 的 文件 中 ， 因 此 , 它们 在 
下 文中 都 可 以 使 用 并 行 优化 . 本 文 使 用 Python 的 
multiprocessing 库 , 把 所 有 待 处 理 的 文件 均 分 成 N 
份 , 每 份 数 据 交 给 一 个 Python 进程 绑 定 的 CPU 核 
心 处 理 (算法 3). 其 中 , 基于 消 色 散 方案 , 加 速 搜索 
和 单 脉 冲 星 搜 索 的 并 行 流程 有 数 千 个 , 而 候选 体 折 
全 的 并 行 流程 通常 也 达到 一 百 左 右 . 下 面 我 们 基于 
并 行 处 理 对 每 一 步 进行 详细 说 明 | 


算法 3 多 进程 并 行 

Require: N e bX, list — 任务 列表 
1: for i = 0 to N — 1 do 
2: E list 将 任务 分 配给 第 i 个 核心 
3: end for 
4: N 个 核心 同时 执行 其 被 分 配 的 任务 


3.4 “ 消 色散 中 的 并 行 化 与 负载 平衡 


采用 表 1 中 所 示 的 适用 于 MWA 低频 脉冲 星 
搜寻 的 消 色 散 方 案 , 我 们 将 消 色 散 的 循环 展开 为 两 
层 循环 , 并 使 用 OpenMP 进行 优化 . 消 色 散 过 程 的 
热点 部 分 为 从 观测 到 的 数据 中 消除 色散 的 循环 : 首 
先 , 读 取 一 条 没有 罕 带 射频 干扰 的 数据 并 生成 预 处 
理 过 的 数据 〈 伪 代码 中 的 GetData) . 然后 , 使 用 
前 一 个 循环 中 的 数据 (上 一 条 数据 ) 和 当前 循环 的 
数据 (本 条 数据 ) 来 消除 色散 ( 伪 代 码 中 的 dedisp) 
. 其 中 , 由 于 第 一 次 运行 时 不 存在 上 一 条 数据 , 因此 
在 第 一 个 循环 中 , 本 条 数据 会 被 使 用 两 次 . 

在 消 色 散 的 循环 中 , 由 于 上 一 条 数据 需要 用 于 
本 条 数据 的 消 色 散 , 因此 存在 数据 依赖 . 为 了 解决 
这 一 问题 , 我 们 将 循环 展开 为 两 个 循环 , 并 分 别 做 
并 行 . 第 一 个 循环 预 处 理 数 据 , 并 将 它们 加 载 进 数 
组 中 . 第 二 个 循环 读 取 预 处 理 的 数据 , 并 进行 消 色 
散 的 操作 (算法 5) . 


算法 4 原始 的 消 色 散 流程 
Require: M — 频道 数量 ,data — 数据 集合 
Ensure: 消 色散 后 的 数据 

1: for i = 0 to M- 1 do 


2: current — data{i] 第 i 个 频道 的 数据 
3: X} current 做 快速 傅 里 叶 变 换 

4 if i > 0 then 

5 用 prev 和 current 做 消 色 散 
6: 对 current 做 快速 储 里 叶 变 换 
7 else 

8 使 用 两 次 current 做 消 色散 

9 对 current 做 快速 傅 里 叶 变 换 
10: end if 

11: prev — current 

12: end for 
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算法 5 优化 后 的 消 色 散 流程 
Require: M — 频道 数量 ,N <e 核心 数量 ,data — 数据 集合 
Ensure: 消 色 散 后 的 数据 
for i = 0 to M/N — 1 do 
if i > 0 then 
prev — current[N — 1] 
end if 
for 7 =0 to N-1do 
current[|j] — data[iN + j) 第 iN + j 个 频道 的 数据 
对 current] j) 做 快速 储 里 叶 变 换 
end for 
for j=0 to N- 1 do 
if i == 0 and j == 0 then 
用 两 次 current[0] 做 消 色 散 
对 current[0] 做 快速 傅 里 叶 变 换 
else if j == 0 then 
用 prev 和 current[0] 做 消 色散 
对 current[0] 做 快速 傅 里 叶 变 换 
else 
用 current[j — 1] 和 currenti j] 做 消 色 散 
对 current[ j] 做 快速 健 里 叶 变 换 
end if 
end for 


end for 


我 们 将 消 色 散 的 循环 展开 为 两 层 循环 , 并 使 用 
OpenMP 进行 优化 . 消 色 散 过 程 的 热点 部 分 为 从 观 
测 到 的 数据 中 消除 色散 的 循环 : 首先 , 读 取 一 条 没 
有 窄带 射频 干扰 的 数据 并 生成 预 处 理 过 的 数据 ( 伪 
代码 中 的 GetData) . 然后 , 使 用 前 一 个 循环 中 的 
数据 (上 一 条 数据 ) 和 当前 循环 的 数据 (本 条 数据 ) 
来 消除 色散 ( 伪 代 码 中 的 dedisp) . 其 中 , 由 于 第 一 
次 运行 时 不 存在 上 一 条 数据 , 因此 在 第 一 个 循环 中 ， 
本 条 数据 会 被 使 用 两 次 . 

在 消 色 散 的 循环 中 , 由 于 上 一 条 数据 需要 用 于 
本 条 数据 的 消 色 散 , 因此 存在 数据 依赖 . 为 了 解决 
这 一 问题 , 我 们 将 循环 展开 为 两 个 循环 , 并 分 别 做 
WAT. 第 一 个 循环 预 处 理 数 据 , 并 将 它们 加 载 进 数 
组 中 . 第 二 个 循环 读 取 预 处 理 的 数据 , 并 进行 消 色 
散 的 操作 . 

但 是 , 消 色 散 中 每 条 prepsubband 命令 分 配 一 
个 CPU 核心 的 策略 可 能 导致 负载 不 均衡 . 如 图 3 所 
示 , 用 于 完成 prepsubband 的 时 间 在 300 秒 到 1500 
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秒 不 等 . 提前 完成 任务 的 CPU 核心 必须 等 待 最 慢 
的 核心 完成 后 才能 继续 执行 下 一 个 任务 . 表 1 列 举 
了 单个 计算 任务 的 差异 导致 的 运行 时 间 的 不 同 . 表 
中 Low-DM 和 High-DM 分 别 代 表 消 色散 操作 允许 
的 下 限 和 上 限 ,dDM 代表 DM 步 长 ,Nsteps 代表 需 
要 执行 的 步 数 ,Downsamp 代表 降 采 样 系数 ,nsub 代 
表 频 率 子 通道 的 数量 . 每 条 prepsubband 命令 执行 
100 次 Nsteps 数 , 并 且 消 色散 操作 共有 28 条 命令 . 
同时 ,nsub 的 值 越 大 , 命令 花费 的 时 间 就 越 多 . 

为 了 平衡 prepsubband 的 运行 时 间 , 我 们 针对 
消 色 散 操作 设计 了 负载 平衡 算法 ， 使 用 OpenMP 
分 配 与 每 个 任务 的 工作 负载 成 比例 的 线程 数量 . 
表 2 显 示 了 在 给 定 nsub 和 线程 数 时 命令 的 预测 执 
行 时 间 . 

我 们 根据 命令 耗 时 的 预测 值 , 生成 了 局 部 最 优 
的 进程 线程 配置 方案 , 从 而 达到 平衡 进程 负载 的 目 
的 . 该 配置 算法 包括 : 总 体 的 进程 数 , 每 个 进程 包 
含 的 命令 以 及 相应 的 线程 数 . 其 中 , 一 个 进程 包含 
若干 命令 , 命令 之 间 弟 行 执行 且 使 用 相同 的 线程 数 . 
具体 步骤 如 下 , 代码 见 算法 6: 


1. 根据 消 色 散 方案 , 假设 需要 执行 的 命令 数量 为 
C, 则 初始 化 C 个 进程 , 每 个 进程 包含 一 条 消 
色散 命令 , 且 每 个 进程 中 所 有 命令 的 线程 数 为 
1; 


2. 根据 命令 耗 时 的 预测 值 , 记 7 为 所 有 进程 耗 
时 的 最 大 值 ; 


3. 如 果 当 前 使 用 的 线程 数 小 于 等 于 节点 上 CPU 
核心 数 , 找 出 最 耗 时 的 进程 , 使 该 进程 的 线程 
数 加 1. 否则 , 找 出 两 个 耗 时 最 短 的 进程 , 将 这 
两 个 进程 中 的 命令 合并 为 一 个 进程 , 并 将 其 线 
程 数 设 置 为 原来 两 个 进程 中 线程 数 的 较 大 值 ; 


4. 更 新 7 的 值 并 与 原 值 进行 比较 , 验证 是 否 满足 
收敛 条 件 ; 知 满足 收敛 条 件 且 当前 使 用 的 线程 
数 大 于 等 于 节点 上 CPU 核心 数 , 则 进程 线程 
配置 算法 结束 , 并 输出 消 色 散 的 配置 方案 , 否 
则 , 返回 前 一 步 . 
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新 华 , 安 涛 . 
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Figure 3 Work imbalance leads to runtime variation on CPU cores of x86 and ARM 
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currentT — 当前 耗 时 最 长 的 进程 需要 的 时 间 


AT < |prevT — currentT| 


prevT — 0 
iter — 0 


> 5% and iter < N or M >N do 


currentT 
if M < N then 


AT 


while 


我 们 选择 非 相 干 模式 下 ,中心 频率 为 185MHz 
的 4 次 MWA-VCS 观测 作为 测试 样 例 (如 表 3 所 
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找 出 运行 用 时 最 大 的 进程 a 


EZIN 1 


将 该 进程 的 线程 
MeM+1 


else 


). MWA-VCS 的 非 相干 模式 具有 约 600 平方 度 
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end if 


prevT + currentT 


需要 的 时 间 
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A 


耗 时 最 长 的 进 和 


前 


AT e |prevT — currentT| 


currentT — 当 


都 分 别 在 


验 


的 搜寻 实 


观测 


次 


我 们 对 这 四 


CSRC-P 的 


计算 节 ， 
这 两 种 节点 的 硬件 和 软件 配置 基本 


于 本 次 实验 结果 的 比较 分 析 我 们 比 


x86 和 ARM 


iter — iter + 1 


ji 


配置 见 表 4 
接近 , 适合 用 


end while 


较 了 x86 和 ARM 平台 上 优化 前 和 优化 后 的 运行 
时 间 、 结 果 的 正确 性 及 不 同 优化 策略 取得 的 优化 效 
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表 2 每 条 prepsubband 命令 在 给 定 nsub,Nsteps 及 
OpenMP 线程 数 下 的 预 估 运行 时 间 

Table 2 The assumed runtime of each prepsubband command 
given nsub,Nsteps and the number of OpenMP threads 


1 thread N threads 
Nstep 
nsub = 4ms 700x% 1.25 x Sw 
Nstep 
nsub = 8ms 800 x ee 1,25 x Sw 
Nstep 
nsub = 16ms 900x we 1,25 x 2w 
Nstep 
nsub = 32ms 1000x We 1,25 x xm 
Nstep 
nsub = 64ms 1200x “#2 125x “we 


4.1 正确 性 验证 


该 管线 的 设计 目的 是 从 时 间 序 列 数据 中 寻找 脉 
冲 星 候选 体 ， 搜 寻 流 程 完成 后 ,关于 脉冲 星 候选 体 
的 信息 存储 在 candslist.txt H, 其 中 包含 每 颗 脉 冲 
星 候选 体 的 色散 和 周期 . 我 们 发 现 不 管 在 哪 种 节点 
上 运算 , 经 过 优化 的 搜寻 管线 和 原 管线 获得 了 完全 
一 致 的 结果 , 以 此 验证 了 我 们 优化 的 脉冲 星 搜寻 管 
线 的 正确 性 . 


4.2 OpenMP 并 行 性 能 分 析 
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图 4 x86 及 ARM 单 节点 上 消除 射频 干扰 的 性 能 比较 
Figure 4 The performance comparison of Remove Narrow — 
band RFI on x86 and ARM’s single node 


韦 建 文 , 张 晨 飞 , 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


表 5 消除 射频 干扰 的 加 速 比 和 并 行 效 率 
Table 5 The speedup and parallel efficiency of Remove Narrow— 
band RFI 


Case 1 2 3 4 
x86 加 速 比 12.4 8.7 13.3 13.4 
x86 并 行 效 率 44.2% 31.1% 47.6% 47.8% 
x86 优化 后 运行 时 间 7.7s 18.9s 17.3s 2.18 
ARM 加 速 比 18.8 10.3 10.2 18.7 
ARM 并 行 效率 19.6% 10.7% 10.6% 19.5% 
ARM 优化 后 运行 时 间 5.88 15.8s 19.5s 1.3s 


我 们 在 x86 和 ARM 单 节 点 上 测试 了 消除 
射频 干扰 的 OpenMP 并 行 性 能 . 测试 结果 见 图 4. 
表 5 显 示 了 在 不 同 节点 上 不 同 数据 上 , 消除 射频 干 
PLM TTR Sp 及 并 行 效率 ep, 其 计算 公式 分 别 为 
Sp = Tı/Tp 和 Ep = T,/pT>. 其 中 ,p 为 计算 节点 的 
核 数 ,Ti 为 单 核 运行 程序 的 耗 时 ,7T， 为 使 用 p 核 运 
行程 序 的 耗 时 . 


对 于 不 同 的 测试 数据 ,ARM 和 x86 具有 相似 
的 加 速 比 . 单个 ARM 通常 比 x86 节点 拥有 更 多 的 
CPU 核心 , 因此 消除 射频 干扰 在 ARM 集群 上 运行 
速度 更 快 . 但 是 ARM 和 x86 集群 上 的 加 速 比 不 完 
全 等 同 于 计算 核 数 目的 比例 . 这 是 因为 OpenMP 的 
多 线程 性 能 受到 内 存 带宽 的 限制 , 这 导致 ARM R 
群 的 并 行 效率 不 会 随 着 CPU 核 数 的 增加 而 线性 增 
加 . 


013002-9 


表 3 非 相干 模式 下 的 MWA-VCS 观测 脉 ; 


星 搜寻 测试 样 例 


韦 建 文 , 张 晨 飞 , 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


Table 3 The MWA-VCS observations in incoherent mode for pulsar search tests 


Case ObsID R.A.(J2000) Dec.(J2000) Duration(s) Pulsar searched 
1 1088850560 13:20:07.2000 -26:37:12.0000 3535 - 
2 1145367872 11:34:17.2956 -33:25:06.9706 3613 J1116-4122 
3 1115381072 10:10:08.1228 十 10:39:45.9377 4868 J0953 十 0755 
4 1131415232 14:39:27.4317 -71:09:36.8236 594 J1430-6623,J1453-6413,J1456-6843 
表 4 软 硬 件 配置 
Table 4 Software and hardware configuration 
WA CPU 内 存 操作 系统 内 核 版 本 ”软件 环境 
x86 Intel Xeon Gold 45367872/case2/gc (28cores 2.60GHz) 6-Channel DDR4-2666 CentOS 7 3.10.0 Python:2.7 gcc:8.3 
ARM Kunpeng 920 CPU (48cores 2.50GHz) 8-Channel DDR4-3200 CentOS 7 4.14.0 Python:2.7 gcc:8.3 


4.3 多 进程 并 行 性 能 分 析 
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图 5 x86 和 ARM 单 节 点 上 的 单 脉冲 搜索 性 能 比较 
Figure 5 The performance comparison of Single Pulse Search 
on x86 and ARM’s single node 


表 6 单 脉 冲 搜索 的 加 速 比 和 并 行 效率 


Table 6 The speedup and parallel efficiency of 
Single Pulse Search 
Case 1 2 3 4 
x86 加 速 比 22.1 30.7 21.8 20.8 
x86 并 行 效率 78.8% 109.5% 77.7% 74.3% 


x86 优化 后 运行 时 间 1.4s 2.58 1.9s 1.6s 


ARM 加 速 比 82.0 47.0 81.2 75.0 
ARM 并 行 效率 85.5% 48.9% 84.6% 78.1% 


ARM 优化 后 运行 时 间 0.7s 2.9s 0.88 0.7s 
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图 6 x86 Al ARM 单 节点 上 的 加 速 搜索 性 能 比较 
Figure 6 The performance comparsion of Accelerate Search on 
x86 and ARM’s single node 


表 7 加 速 搜索 的 加 速 比 及 并 行 效 率 


Table 7 The speedup and parallel’ efficiency of 
Accelerate Search 
Case 1 2 3 4 
x86 加 速 比 25.2 25.4 25.6 23.0 
x86 并 行 效率 89.9% 90.6% 91.5% 82.0% 
x86 优化 后 运行 时 间 23.2s 21.68 22s 21.9s 
ARM 加 速 比 79.6 67.4 72.7 79.8 
ARM 并 行 效率 82.9% 70.2% 75.7% 83.1% 
ARM 优化 后 运行 时 间 10.9s 13.1s 12.2s 10.9s 


基于 前 文 所 述 的 多 进程 并 行 方 法 , 我 们 在 x86 
和 ARM 单 节点 上 测试 了 使 用 multiprocessing 并 
行 化 单 脉 冲 搜索 、 加 速 搜 索 、 候 选 体 折 著 和 消 色 散 
的 并 行 性 能 . 

单 脉 冲 搜索 使 用 了 基于 PRESTO 的 Python 
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脚本 single_pulse_search.py. 性 能 比较 见 图 5, 加 速 
比 及 并 行 效 率 见 表 6. 加 速 搜 索 使 用 了 PRESTO 中 
的 accelsearch. 其 中 , 谐 波 禾 加 上 限 numharm 设置 
为 16, 频 域 最 大 偏 移 zmax 设置 为 200. 表 7 及 图 6 显 
示 了 在 不 同 节 点 上 运行 不 同 数据 的 加 速 比 和 并 行 效 
K. 从 图 中 可 以 发 现 , 单 脉 冲 搜索 和 加 速 搜索 都 能 
取得 很 高 的 并 行 效率 . 这 是 因为 它们 对 数 千 个 文件 
做 处 理 , 且 文 件 之 间 的 处 理 没 有 依赖 , 因此 多 进程 
的 方法 可 以 很 好 地 提升 它们 的 性 能 . 

WT eA Be, 我 们 运行 了 基于 PRESTO 
的 prepfold, 折 闭 后 作 图 点 数 n 设置 为 128. 表 8 及 
图 7 显示 了 不 同 节 点 上 运行 不 同 数据 的 加 速 比 和 并 
行 效率 .候选 体 折 闭 会 执行 多 条 不 同 参 数 的 prep- 
fold 命令 , 这 些 命令 的 耗 时 相同 . 观测 数据 casel 需 
要 执行 50 条 prepfold 命令 , 在 28 核 的 x86 并 行 
运行 时 , 先 运行 28 条 命令 , 完成 后 再 运行 剩 下 的 22 
条 . 此 时 会 存在 空闲 的 CPU 核心 , 从 而 降低 并 行 效 
率 . 在 96 核心 的 ARM 单 节 点 上 运行 时 , 会 有 46 
个 空闲 的 CPU 核心 , 因此 并 行 效率 会 较 低 . 观测 数 
据 1091309464 需要 执行 88 条 prepfold ARS, 此 时 
ARM 上 由 于 命令 数量 变 多 , 并 行 效率 会 得 到 提升 . 
而 在 x86 上 , 由 于 命令 数量 的 上 升 , 运行 过 程 中 整 
个 节点 的 CPU 核心 被 占 满 的 时 间 比 例会 增加 , 所 
以 并 行 效率 也 会 得 到 提升 . 
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图 7 x86 及 ARM HI ch EUR Ra BE PERE HOR 
Figure 7 The performance comparison of Candidata Folding on 
x86 and ARM’s single node 


PEX, IKR K, 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


表 8 候选 体 折 登 的 加 速 比 及 并 行 效 率 


Table 8 The speedup and parallel efficiency of 
Candidata Folding 
Case 1 2 3 4 
x86 加 速 比 9.8 8.6 9.1 9.5 
x86 并 行 效 率 34.9% 30.7% 32.7% 33.9% 
x86 优化 后 运行 时 间 55.2s 113.6s 108.7s 15.1s 


ARM 加 速 比 32.1 41.5 37.3 38.8 
ARM 并 行 效率 33.4% 43.2% 38.8% 40.5% 
ARM 优化 后 运行 时 间 47.6s 62.4s 73.4s 9.9s 
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图 8 x86 Al ARM 单 节点 上 的 消 色 散 性 能 比较 
Figure 8 The performance comparsion of De - dispersion on 
x86 and ARM’s single node 


RO 消 色散 的 加 速 比 及 并 行 效率 
Table 9 The speedup and parallel efficiency of De — dispersion 


Case 1 2 3 4 
x86 加 速 比 11.5 11.4 11.3 8.7 
x86 并 行 效率 41.0% 406% 40.3% 31.0% 


x86 优化 后 运行 时 间 32.4s 26.8s 32.5s 22.0s 


ARM 加 速 比 11.2 9.9 11.3 10.4 
ARM 并 行 效率 11.7% 10.3% 11.8% 10.9% 
ARM 优化 后 运行 时 间  36.1s 40.88 35.88 292.28 


最 后 , 对 于 消 色 散 , 我 们 运行 了 基于 PRESTO 
的 prepsubband, 并 根据 MWA 对 非 连续 低频 数据 
的 消 色 散 方案 设置 运行 参数 . 不 同 节点 上 不 同 数据 
的 加 速 比 及 并 行 效率 见 表 9 及 图 8 消 色散 的 并 行 效 
率 同 样 较 低 , 因为 根据 消 色 散 方案 给 出 的 参数 空间 ， 
在 多 核 计算 节点 并 行 prepsubband 命令 的 时 候 , 命 
令 之 间 的 耗 时 差异 较 大 , 从 而 造成 运行 时 的 计算 资 
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源 浪费 以 及 并 行 效率 的 降低 . 在 下 一 节 中 , 我 们 针 
对 ARM 节点 采用 OpenMP+multiprocessing 组 
合 的 方式 , 来 尽 可 能 消除 其 负载 不 平衡 的 问题 ， 以 
充分 利用 每 节点 的 96 个 核心 . 


4.4 负载 平衡 优化 


根据 图 2 中 消 色 散 命令 的 耗 时 分 布 , 我 们 可 以 
发 现 , 命令 1-11 对 应 nsub = 4 的 情况 ,12-16 对 应 
nsub = 8 的 情况 ,17-21 对 应 nsub = 16 的 情况 ,22-26 
对 应 nsub = 32 的 情况 ,27-28 对 应 nsub = 64 的 情 
况 , 其 中 16、21 和 26 的 Nsteps 分 别 为 57、15 和 
35, 因此 它们 的 耗 时 会 较 少 . 

针对 x86 单 节 点 28 个 CPU 核心 的 特性 , 我 
们 采用 负载 平衡 生成 算法 所 获得 的 优化 并 行 策略 ， 
是 使 用 multiprocessing 运行 14 个 进程 ， 每 个 进 
程 中 串 行 运行 1-3 条 prepsubbands 命令 , 每 条 命 
SEH 2 个 OpenMP 线程 来 运行 , 这 样 就 可 以 用 
满 x86 单 节点 上 的 28 个 CPU 核心 , 最 大 化 地 


平衡 每 个 进程 的 负载 . 命令 与 进程 的 对 应 关系 如 下 : 


(1,2,21), (3, 16,26), (4, 25), (5, 24), (6, 23), (7, 22), 

(8, 20), (9, 19), (10, 18), (11, 17), (12, 15), (13,14). 其 
中 , 每 个 括号 代表 一 个 进程 , 括号 中 的 数字 代表 该 
进程 中 串 行 运行 的 命令 编号 . 

表 10 ARM 上 消 色 散 的 负载 平衡 策略 


Table 10 The load balance strategy of De-dispersion on ARM 


命令 id OpenMP threads 数量 
1-16 2 
17-20 4 
21 2 
22-25 6 
26 2 
27-28 10 


受 限 于 流水 线 的 算法 设计 , 当前 启用 的 28 个 
进程 无 法 充分 发 挥 ARM 节点 96 个 核心 的 计算 
AEA. 我 们 设计 了 Multiprocessing+OpenMP 多 
线程 的 两 级 并 行 方法 , 为 不 同 的 进程 分 配 2-10 个 
OpenMP 线程 ， 从 而 充 分 发 挥 96 核心 计算 能 力 . 
每 个 进程 根据 运行 命令 中 的 nsub 的 值 分 配 不 同 的 


PEX, IKR K, 张 仲 莉 , 余 婷 , 林 新 华 , 安 涛 . 


OpenMP 线程 数 , 对 应 关系 如 表 10 所 示 . 

通过 上 述 的 负载 平衡 策略 , 我 们 比较 了 进一步 
优化 前 后 的 性 能 对 比 , 结果 见 图 9 和 表 11.， 我 们 可 
以 发 现 ,ARM 的 提速 效果 更 明显 ， 因 为 在 负载 平 
衡 优 化 前 ,ARM 单 节点 只 使 用 了 28 个 进程 来 运 
THA GAL, 而 负载 平衡 后 , 每 个 进程 都 会 使 用 多 个 
OpenMP 线程 , 从 而 用 满 了 96 个 CPU 核心 . 而 
x86 在 负载 平衡 前 后 都 已 经 用 满 了 28 个 CPU 核 
心 , 所 以 提升 效果 不 及 ARM. 

四 个 测试 数据 的 整体 加 速 比 见 图 10 及 表 12. 相 
较 于 单线 程 方案 , 我 们 在 x86 平台 上 实现 了 10.4- 
12.2 倍 的 加 速 , 在 ARM 平台 上 实现 了 最 高 27.6 倍 
的 加 速 . 在 本 文 的 测试 数据 中 ,ARM 平台 的 运行 时 
间 相 比 x86 平台 短 1.1-1.3 倍 . 这 是 由 于 ARM $ 
点 有 更 多 的 运算 核心 . 
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图 9 x86 及 ARM 节点 消 色 散 运 行 时 间 比 较 
Figure 9 The runtime comparsion of de-dispersion on the x86 
and ARM nodes. 


表 11 使 用 负载 平衡 策略 后 的 消 色 散 并 行 效率 比较 


Table 11 The parallel efficiency comparsion of De-dispersion 


after using load balancing method 


Case 1 2 3 
x86 负载 平衡 前 41.0% 40.6% 40.3% 
x86 负载 平衡 后 48.3% 44.4% 46.9% 
ARM 负载 平衡 前 11.7% 10.3% 11.8% 
ARM 负载 平衡 后 19.0% 17.6% 18.7% 
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图 10 x86 和 ARM 单 节点 上 整体 管线 的 性 能 比较 
Figure 10 The performance comparison of the whole pipeline 
on x86 and ARM’s single node. 


#212 x86 及 ARM 的 整体 管线 加 速 比 


Table 12 The speedup of the whole pipeline on x86 and ARM 
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一 步 提升 了 总 体 的 并 行 效率 . 本 文中 针对 多 核 架 构 
的 优化 方法 适用 于 x86 和 ARM 平台 , 并 分 别 在 两 
种 平台 上 对 MWA-VCS 在 中 心 频率 为 185MHz 上 
的 四 个 观测 的 非 相干 琶 加 数据 进行 了 搜寻 测试 . 测 
试 结论 如 下 : 
。 与 原来 的 单线 程 方法 相 比 ,在 28 个 CPU 核心 
的 x86 单机 上 的 运行 时 间 减 少 了 10.4-12.2 倍 , 并 
行 效率 为 36%; 在 96 个 CPU 核心 的 ARM 单机 上 
的 运行 时 间 最 多 减少 了 27.6 倍 , 并 行 效率 为 31%. 
。 在 x86 和 ARM 计算 节点 上 执行 相同 的 并 行 
优化 技术 , 展示 了 优化 从 x86 到 ARM 平台 的 可 移 
植 性 ， 由 于 脉冲 星 搜索 任务 的 大 规模 并 行 性 ,ARM 
平台 得 益 于 每 个 节点 更 多 的 计算 核 数 , 在 测试 程序 
EL x86 平台 的 速度 快 1.1-1.3 倍 , 这 个 结果 显示 
出 ARM 节点 在 SKA 数据 处 理 任务 中 的 巨大 潜力 . 
。 我 们 的 优化 算法 使 脉冲 星 搜索 的 时 间 消 耗 总 
体 减少 了 一 个 数量 级 , 这 将 有 效 促进 脉冲 星 研究 的 


z 


Case 1 2 3 4 

x86 优化 后 运行 总 时 间 133.6s 199.9s 195.4s 76.3s 
x86 加 速 比 12.2 10.4 11.3 11.9 
ARM 优化 后 运行 总 时 间 117.0s 151.7s 157.3s 67.0s 
ARM 加 速 比 25.8 27.6 27.4 24.5 
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5 总 结 

本 文 基于 OpenMP 多 线程 和 multiprocessing 
多 进程 的 并 行 方法 , 对 脉冲 星 搜寻 管线 中 的 热点 成 
功 实现 了 多 核 并 行 ,并且 设 计 了 一 个 平衡 负载 的 自 
动 生 成 算法 , 使 用 multiprocessing+OpenMP 组 合 
的 方式 , 解决 了 消 色散 算法 中 的 负载 不 平衡 问题 , 进 


致谢 本 研究 使 用 了 中 国 SKA 区 域 中 心 原型 机 的 资源 . 
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The connection between astronomy and high performance computing is becoming stronger with the devel- 
opment of cutting-edge observing facilities such as the Square Kilometre Array (SKA) and the proposed 
innovative platform for big data and high performance computing. Astronomical computation is character- 
ized by huge data volume and massive parallelism, especially for pulsar search which is one of the leading 
scientific directions of the SKA. In this paper, we present an approach to accelerate the pulsar search pipeline 
based on OpenMP and multiprocessing techniques, propose a method to solve the load imbalance problem,and 
successfully has the pipeline installed on both x86 and ARM compute nodes on China SKA regional center 
prototype (CSRC-P). The performance evaluation from the tests on the Murchison Widefield Array (MWA) 
VCS observations shows that our optimization method works well on both x86 and ARM nodes, improving 
the relative speedup by a factor of 10.4-12.2 and 24.5-27.6, respectively, compared to the original single- 
thread approach. The ARM platform was found to be 1.1—1.3 times faster than the x86 platform in the tested 
cases, showing its great potential for SKA data processing. Recently, this optimized pulsar search pipeline 
deployed on CSRC-P will be especially used for low-frequency pulsar survey of the Southern-sky MWA Rapid 
Two-metre (SMART) program,for various scientific goals including pulsar timing arrays for gravitational wave 
detections. 
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